Yiksan0315's Blog

Regession Evaluaton

# Tag:

  • Source/KU_ML

Regression Evaluation

Evaluation

Coefficient of Determination

평가의 지표가 될 기준 함수를 위해, constant function을 정의한다.

: 어떤 가 들어오든 라는 일정한 constant를 출력하는 함수가 된다.

이에 대해 MLE를 진행하면, : label의 평균이 된다.

R2 Score

  • SSR(Residual Sum of Squares):
  • SSE(Explained Sum of Sqaures):
  • SST(Total Sum of Squres):

이때, **RSE(Relative squre error)**는, : .
이는, constant functio에 비해, 새롭게 비교하고자 하는 가 어느 정도의 error율을 가져오는지에 대한 의미가 된다.

즉, 1에서 를 빼면 의 Data에 대한 설명력으로 볼 수 있으며 이를 R2 score라고 한다.

: 음의 상관관계에 있다면 , 양의 상관관계에 있다면 이 된다.

Expected Square Error for Regression

conditinal distrubution 에 대해 train data 를 이용하는 estimator 의 expected square error.

모델의 예측값과 실제 값 사이의 차이를 나타내는 성능 지표가 된다. 이 때, 이므로, 은 변하는 값임에 염두를 둔다.

이 때, 에 대해 Train Data에 포함되지 않은 새로운 미래 데이터 를 조건으로 하는 square Error의 Expection식은

: 는 고정되어 있는 conditinal 값이고, 은 변한다는 점에 유의한다.

  • : Variance of Noise, 데이터에 포함된 불가피한 오차(irreducible error)을 의미하며, 모델이 아무리 정확해지더라도 해결할 수 없는 오차이다.
    • : 과 동일하다. 은 어떠한 Gaussian Distribution을 따라므로 이는 곧 를 의미하게 된다.
    • : 주어진 에 대한 의 기대값으로, 새로운 데이터에 대한 모델이 예측할 수 있는 최선의 추정치이다.
  • : model의 추정값과, 최선의 기대값 사이의 MSE. 즉, Error이다.

Expected Square Error for Regression Over Train data

위의 식을 다시 확장하여, Train Data 에 대한 Expectation으로 바꾸어 regression에 대한 square error가 곧 Bias제곱과 Variance의 합임을 증명 가능하다.

  • : Bias의 제곱.
  • : Variance.

그 외에 가 아닌 에 대해서, 아니면 미래 데이터 역시 변형된다 가정하고 그에 대한 Expectation취해도 variance와 bias의 제곱의 합으로 그 Error가 나옴이 증명된다.

결론

즉, 어떠한 Error에 대해서도 결국은 VarianceBias의 제곱의 합으로 표현되므로, 그 Trade-off가 최적이 되는 점이 찾을 때 Error가 최소가 됨을 의미한다.

이를 찾아내기 위해 Cross Validation 등을 이용한다.

toc test

이 페이지는 리디주식회사에서 제공한 리디바탕 글꼴이 사용되어 있습니다. 리디바탕의 저작권은 리디주식회사가 소유하고 있습니다.

This Font Software is licensed under the SIL Open Font License, Version 1.1.

Copyright 2025. yiksan0315 All rights reserved.